视频动作细分和识别任务已广泛应用于许多领域。大多数先前的研究都采用了大规模的高计算视觉模型来全面了解视频。但是,很少有研究直接采用图形模型来推理视频。该图模型提供了更少的参数,低计算成本,大型接受场和灵活的邻域消息聚合的好处。在本文中,我们提出了一个名为Smatantic2Graph的基于图的方法,以将视频动作分割和识别问题转变为图的节点分类。为了保留视频中的细粒关系,我们在框架级别上构建视频的图形结构,并设计了三种类型的边缘:时间,语义和自循环。我们将视觉,结构和语义特征与节点属性相结合。语义边缘用于建模长期时空关系,而语义特征是基于文本提示的标签文本的嵌入。图形神经网络(GNN)模型用于学习多模式特征融合。实验结果表明,与最先进的结果相比,语义2Graph在GTEA和50萨拉德方面取得了改善。多次消融实验进一步证实了语义特征在改善模型性能方面的有效性,语义边缘使Smantic2Grapl可以以低成本捕获长期依赖性。
translated by 谷歌翻译
Existing graph contrastive learning methods rely on augmentation techniques based on random perturbations (e.g., randomly adding or dropping edges and nodes). Nevertheless, altering certain edges or nodes can unexpectedly change the graph characteristics, and choosing the optimal perturbing ratio for each dataset requires onerous manual tuning. In this paper, we introduce Implicit Graph Contrastive Learning (iGCL), which utilizes augmentations in the latent space learned from a Variational Graph Auto-Encoder by reconstructing graph topological structure. Importantly, instead of explicitly sampling augmentations from latent distributions, we further propose an upper bound for the expected contrastive loss to improve the efficiency of our learning algorithm. Thus, graph semantics can be preserved within the augmentations in an intelligent way without arbitrary manual design or prior human knowledge. Experimental results on both graph-level and node-level tasks show that the proposed method achieves state-of-the-art performance compared to other benchmarks, where ablation studies in the end demonstrate the effectiveness of modules in iGCL.
translated by 谷歌翻译
在本文中,我们通过推断在歧管上的迭代来提出一种简单的加速度方案,用于利曼梯度方法。我们显示何时从Riemannian梯度下降法生成迭代元素,加速方案是渐近地达到最佳收敛速率,并且比最近提出的Riemannian Nesterov加速梯度方法在计算上更有利。我们的实验验证了新型加速策略的实际好处。
translated by 谷歌翻译
视频问题回答(videoqa)是回答有关视频的自然语言问题的任务。产生答案需要了解有关视频和语言语义中的视觉场景之间的相互作用。但是,大多数领先的VideoQA模型都可以用作黑匣子,这使得在答案过程背后的视觉语言对齐变得晦涩难懂。这种黑框的自然要求可以视觉解释性,揭示了``视频的哪一部分应该考虑回答问题?''。只有少数作品以事后的方式呈现视觉解释,该解释通过其他方法模仿了目标模型的答案过程。尽管如此,仿真努力在回答过程中忠实地表现出视觉语言的结盟。我们专注于使答案过程透明的固有解释性,而不是事后解释性。从本质上讲,关键问题的线索是作为因果场景提供答案的原因,同时推出了问题的信息作为环境场景。从因果关系看VideoQA,我们设计了一个自我解释的框架,对可解释的VideoQA(EIGV)的刻度和不变的基础。具体而言,模棱两可的基础鼓励答案对因果场景和问题的语义变化敏感。相比之下,不变的接地强迫答案对环境场景的变化不敏感。通过将它们强加于答案过程,EIGV能够将因果场景与环境信息区分开,并明确介绍视觉语言的一致性。在三个基准数据集上进行的广泛实验证明了EIGV的准确性和视觉解释性优于领先基线的优势。
translated by 谷歌翻译
本文提出了一个视频图形变压器(VGT)模型,用于视频Quetion Answering(VideoQA)。 VGT的唯一性是双重的:1)它设计了一个动态图形变压器模块,该模块通过明确捕获视觉对象,它们的关系和动态来编码视频,以进行复杂的时空推理; 2)它利用了删除的视频和文本变压器,以比较视频和文本以执行质量检查,而不是纠缠的跨模式变压器进行答案分类。视觉文本通信是通过其他跨模式相互作用模块完成的。借助更合理的视频编码和质量检查解决方案,我们表明VGT可以在挑战动态关系推理的视频中取得更好的性能,而不是在没有预处理的情况下。它的性能甚至超过了那些被数百万个外部数据鉴定的模型。我们进一步表明,VGT也可以从自我监督的交叉模式预处理中受益匪浅,但数据的数量级较小。这些结果清楚地表明了VGT的有效性和优势,并揭示了其具有更高数据预处理的潜力。通过全面的分析和一些启发式观察,我们希望VGT能够在现实视频中促进VQA研究超越粗略的认识/描述,以实现细粒度的关系推理。我们的代码可在https://github.com/sail-sg/vgt上找到。
translated by 谷歌翻译
本文旨在为多尺度帧卷积提供一种新颖的光谱图神经网络设计。在光谱范例中,光谱GNN通过提出频谱域中的各种光谱滤波器来提高图形学习任务性能,以捕获全局和本地图形结构信息。虽然现有的光谱方法在某些图表中显示出卓越的性能,但是当图表信息不完整或扰乱时,它们患有缺乏灵活性并脆弱。我们的新帧卷曲卷积包括直接在光谱域中设计的过滤功能,以克服这些限制。所提出的卷积在切断光谱信息中表现出具有很大的灵活性,并有效地减轻了噪声曲线图信号的负效应。此外,为了利用现实世界图数据中的异质性,具有我们新的帧卷积的异构图形神经网络提供了一种用于将元路径的内在拓扑信息与多级图分析嵌入的解决方案。进行了扩展实验实现了具有嘈杂节点特征和卓越性能结果的设置下的现实异构图和均匀图。
translated by 谷歌翻译
视频问题应答需要模型来理解和理由对复杂的视频和语言数据来正确地推导答案。现有努力专注于设计复杂的跨模型交互,使来自两个模态的信息融合,同时将视频和问题全面地作为帧和单词序列对。尽管取得了成功,但这些方法基本上围绕了视频和问题内容的连续性,对问题回答和缺乏可解释性的问题提供了很少的洞察。在这项工作中,我们认为,虽然视频以帧序列呈现,但是在语义空间中的视觉元素(例如,对象,动作,活动和事件)不是顺序但相当分层。为了与语言查询中的语言概念的多粒子概念对齐,我们建议将视频作为条件图层次结构,以相应的文本线索的指导在一起以级别明智的方式编织不同粒度的视觉事实。尽管简单性,我们的广泛实验表明了这种条件等级图形架构的优越性,并且在现有方法上具有明显的性能改进,以及不同类型的问题的更好的概括。进一步分析还巩固模型的可靠性,因为它显示了预测答案的有意义的视觉文本证据。
translated by 谷歌翻译
二元erceptron是非凸优化的监督学习的基本模型,这是流行深度学习的根源。二进制Perceptron能够通过计算二进制突触的边际概率来实现随机高维数据的分类。算法不稳定性与模型的平衡分析之间的关系仍然难以捉摸。这里,我们通过表明算法定点周围的不稳定性条件与用于打破自由能量功能的副本对称鞍点解决方案的不稳定性相同的关系来建立关系。因此,我们的分析提供了促进促进更复杂的神经网络的非凸学学习动态和统计力学特性之间的差距的见解。
translated by 谷歌翻译
本文介绍了Wasserstein对外正规正规化的图形AutoEncoder(Warga),一种隐含的生成算法,直接通过Wassersein指标将节点潜入目标分布的节点潜行分布。所提出的方法已在实际图表中的链路预测和节点聚类的任务中验证,其中WARGA通常优于基于Kullback-Leibler(KL)发散和典型的对抗框架的最先进模型。
translated by 谷歌翻译
随着从现实世界所收集的图形数据仅仅是无噪声,图形的实际表示应该是强大的噪声。现有的研究通常侧重于特征平滑,但留下几何结构不受影响。此外,大多数工作需要L2-Norm,追求全局平滑度,这限制了图形神经网络的表现。本文根据特征和结构噪声裁定图表数据的常规程序,其中目标函数用乘法器(ADMM)的交替方向方法有效地解决。该方案允许采用多个层,而无需过平滑的关注,并且保证对最佳解决方案的收敛性。实证研究证明,即使在重大污染的情况下,我们的模型也与流行的图表卷积相比具有明显更好的性能。
translated by 谷歌翻译